大学排名是“皇帝的新衣”吗?对影响因子的狂热真实意义几何?
什么才是有效的科研评价标准?如何评判指标是否有效?
近年来,科研评价改革呼声越来越高,但成效一直并不明显。政府和科研管理人员仍然希望运用定量指标来评价一切,包括对普通教师、教授、课程、科研项目和大学的评价。
国际知名科技政策专家伊夫斯·金格拉斯的批判性著作《大学的新衣:对基于文献计量学的科研评价的反思》,围绕文献计量方法展开了热烈的讨论,通过聚焦评价的基本问题及其对科研的影响,厘清科研评价中很多似是而非的概念,帮助评价者和被评价者更合理地理解和使用目前在新兴的科研评价市场上盛行的排名“黑匣子”里的许多指标;同时也探究了大学急于让无效指标影响其科研战略的缘由,提出了问题:尽管大多数的大学领导者、聪明的学者、有经验的管理人员认为排名并不具有科学价值,但他们仍然使用排名为其机构做宣传并应用于资源投入、教师聘任和晋升等重要战略决策,是否是在重演“皇帝的新衣”这个古老的故事?
大学排名是“皇帝的新衣”吗?定量指标可以评价一切吗?什么才是有效的科研评价标准?如何评判指标是否有效?
期刊影响因子为何要精确到小数点后三位?
在科研评价中使用引文数据带来的最大问题可能是反映期刊引文影响力的指标被用来评价论文的水平。科学期刊已经成为一个非常有利可图且竞争激烈的市场。期刊使用影响因子作为推广工具,说服作者提交他们水平最高的论文,并向图书馆出售订阅服务。20世纪90年代末以来,影响因子不仅被视为衡量期刊质量的指标,而且还被误认为是衡量论文质量的标准。但是,对影响因子的日益关注导致了一种丑陋的行为,即试图干扰科学家的引用行为来提高期刊影响因子。要理解一个简单的指标是如何导致了这种极端行为,首先要回顾一下期刊影响因子的发明。
作者伊夫斯·金格拉斯,图片来源:来自蒙特利尔魁北克大学官网
期刊影响因子的起源
1975年以来,汤森路透每年根据WoS的数据发布《期刊引证报告》(Journal CitationReports),期刊在某一年度的影响因子(IF)是某期刊前两年发表的论文于该年度获得的总被引频次除以该期刊在这两年内发表的论文总数。因此,影响因子用来表征期刊,而不是论文。例如,某一期刊2006年度的影响因子是该期刊在2004年和2005年发表的所有论文在2006年的总被引频次除以该期刊这两年发表的论文总数。
当然,选择两年的短时间窗口来评价影响力有可能会产生不良后果。毫无疑问,它会给自然科学期刊带来高影响因子,而给社会科学期刊带来低影响因子。这种差别在很大程度上是由所选择的时间窗口导致的,因为社会科学研究通常比自然和生物医学研究的周期长。因此,将引用的时间窗口延长到10年,才能使社会科学期刊的影响因子与自然科学影响因子一样具有可比性。例如,1980年医学期刊《柳叶刀》(The Lancet)近两年论文的篇均被引频次是2.4,而《美国社会学评论》(AmericanSociological Review)则为1.8。然而,引用的时间窗延长到10年,结果却截然相反:社会学期刊(20.9)的篇均被引频次大大超过了医学期刊(14.0)。很明显,不同领域的期刊影响因子是不可比的,对同一研究领域的期刊进行比较时,这些数值才有意义。
影响因子的另一个重要特征是包括自引(self-citations),即在一本期刊获得的总被引频次中,包括了期刊自身的引用。尽管这一问题可以追溯到20世纪70年代该指标的创建时期,但是直到20世纪90年代才成为一个问题。在这一时期,影响因子成为期刊之间相互竞争的重要工具,并开始被用作衡量科研人员论文质量的指标。影响因子的战略重要性导致期刊编辑和出版商要求作者引用更多自己期刊中的论文作为论文录用的隐性条件。根据定义,期刊自引的增加有提高影响因子的作用,即使在其他期刊的引用(一种更好的显示度指标)不变甚至减少的情况下。这种给作者造成的过度压力始于20世纪90年代的后半期,此后一直备受争议。
自引与影响因子的关系
在一定程度上,这个问题是技术性的。既然可以排除自引重新定义影响因子,并使操纵指数变得更加困难,那么将需要形成一个期刊交互引用的联盟。正如接下来将看到的,尽管令人惊讶,但是一些期刊似乎已经迈出了这一步。虽然《期刊引证报告》仍基于最初的定义(包括自引)来计算影响因子的常用值,但已经调整了结果,将这些可能的行为考虑在内,并且还发布了排除期刊自引后得到的影响因子。此外,还计算了期刊的自引比例,为测量外部显示度提供了一个有用的指标。
尽管一些期刊编辑要求作者更多引用该期刊已发表的论文,但这一现象并不应该让期刊自引“妖魔化”,实际上这是正常的表现。事实上,在同一本期刊上发表的论文因其研究对象或主题具有某种相关性,继而相互引用,这是完全合理的。期刊通常服务于一个有限的、专业的学术团体。以数学上的纽结理论为例,这一研究领域的专门期刊并不多,事实上只有一本期刊,即《纽结理论及其分支》(The Journal ofKnot Theory and Its Ramifications)。尽管其他综合类期刊也接收相关主题的论文,但那些从事纽结理论研究的专家们都想要在该期刊上发表论文。
去除自引对期刊的影响因子会有什么影响呢?很显然是影响因子变小了。参考2009年的《期刊引证报告》,可以发现《纽结理论及其分支》的影响因子是0.523,但去除自引后,这个数字下降到0.311,自引占40%。但这真的改变了什么吗?事实上,影响因子在期刊评价中不应该有任何重要性,因为很明显只有专业从事纽结理论研究的人才知道这本期刊的好坏。如果另一本影响因子是0.822的数学期刊只发表了几篇关于纽结理论的论文,那也并不意味着这本数学期刊的质量更高,因为在其他条件相同的情况下,影响因子取决于研究领域的大小。如果从事X主题研究的只有100人,那么与从事同一主题研究的科研人员多10倍的情况相比,总是会获得更少的引用(假设参考文献是常量)。因此,对于一些特殊专业的领域,自引比例很高并不奇怪。
期刊黑名单
然而,一些期刊似乎存在异常的引用水平。由于担心操纵影响因子的争议影响产品的价值,汤森路透介入了这场争论,并于2007年创建了一份期刊黑名单,罗列了涉嫌操纵影响因子的期刊。为了遏制操纵行为,一旦认定影响因子被操纵,汤森路透便不会再公布该期刊的影响因子。2007年就有9本期刊受到惩罚。这种监测还包括对期刊之间的交互引用(citationexchanges)行为的监测。这种行为更难辨别,但汤森路透已经开发出可以监测的软件。因此,在2013年的《期刊引证报告》中,有37本期刊被列入黑名单,其中14本是由于交互引用。而2012年,只有3本期刊属于这一类。在重新评价之前,这些违规期刊将被列入黑名单两年。应该指出的是,这些违规期刊在WoS所有期刊中的占比不到1%。
就像发表压力带来了学术欺诈行为一样,过分强调影响因子也加剧了期刊编辑的违规行为。2013年夏天,巴西医学期刊《诊所》(Clinics)的编辑因试图通过加入引用联盟来最大化其期刊的引文数量而被解雇。这种违规行为是政府政策可预见的负面影响导致的,因为巴西政府颁布了一项政策,要求根据学生论文发表期刊的影响因子来评价研究生的课程质量。
巴西的期刊编辑们批评这种简单化的评价制度,并要求对其进行修正。对于一本全国性期刊来说,为寻求最大限度地扩大其所发表论文的显示度,要求作者引用本国的相关论文而不是只参考国外的研究成果,这可能确实是无可厚非的。因此,如果不将影响因子转化为科研人员的评价标准,这些操纵影响因子的行为并没有任何重要意义,也不会被视作违规行为。
无论如何计算,影响因子仍然是与期刊相关的一个评价标准,但是与期刊发表的论文没有关系。这一指标用来评价个体科研人员的论文价值也是有缺陷的,其根本原因在于:一本期刊上发表的论文获得的实际引用分布遵循与阿尔弗雷德·洛特卡定律类似的幂定律,这就意味着大多数论文实际上很少被引用。只有少数论文被频繁引用,它们提升了影响因子的价值。对于这类分布,平均值并不能很好地反映中心趋势,这只适用于所谓的正态分布和钟形分布。
“对影响因子的狂热没有任何意义”
简言之,一篇发表在高影响因子期刊上的论文可能实际上从未被引用过。如果想要评价一篇论文的质量或显示度,那么就要看它发表后的几年里实际的被引情况。当然,这需要时间,但那些喜欢“简单快速”的评价方法的人不愿意等上3~5年。所以,他们使用期刊的影响因子评价论文的质量和影响,即使这样的测量是完全不合适的。正如我们在后文中将看到的,以所谓的“补充计量学运动”(altmetricsmovement)为基础的评价同样也缺乏耐心。
事实上,20世纪90年代中期以来,文献计量学的专家们一直呼吁警惕使用影响因子评价个体科研人员的荒谬性,但这并没有阻止决策者以及许多被认为理性的科学家组成的评价委员会对影响因子的不当使用。许多国家(如巴基斯坦、韩国和日本)的政府官员和研究机构,甚至建立了直接以期刊影响因子为基础的经济激励措施。根据2006年《自然》的一项研究,巴基斯坦科学部(PakistanMinistry of Science)通过计算科研人员年度发表论文影响因子的总和,设立了1千美元到2万美元不等的奖金。中国科学院北京生物物理研究所当时也建立了一项类似的制度:影响因子在3到5之间,每分250美元;如果影响因子超过10,每分875美元。在这种背景下,一些科研人员被怀疑为了在某些顶级期刊上发表论文而操纵同行评价。于是这些顶级期刊的编辑们以欺骗性的同行评价为由撤回了他们的论文。
同期,《自然》的一篇社论谴责了这种关于影响因子的无稽之谈。2013年,《科学》的主编布鲁斯·艾伯茨(Bruce Alberts)重申,“对影响因子的狂热没有任何意义”。大约在同一时期,400多家科学组织和一万多位科研人员签署了“旧金山科研评价宣言”(San FranciscoDeclaration on Research Assessment),宣言坚称影响因子不应被用作替代工具来评价个体科研人员的论文质量,也不应用于聘用、晋升、资助及以某种方式评价个体科学家。
无论人们如何看待为科研人员提供的奖励,真正的问题是评价过程中使用了有缺陷的指标。最好的数学期刊的影响因子等同于最好的医学期刊,这是不可能的。任何理智的人都不会简单地根据论文发表期刊的影响因子给予医学论文作者更高的奖励。
最后,值得注意的是期刊影响因子被精确到小数点后三位!在科学中,我们认为很少有自然现象可以精确到这种程度。例如,有谁想知道温度是20.233摄氏度吗?一个突出的问题是,为什么不将影响因子限制为整数:1、2、3……20、21……呢?显然,基于影响因子的各种排名将会因此丧失他们的大部分价值。经济学家们特别喜欢用影响因子对他们的期刊进行排名。
以2011年WoS中经济学期刊及其影响因子的列表为例,使用精确到小数点后三位的影响因子来对这256本期刊进行排名。很明显,很少出现排名并列的情况,只有3本期刊的影响因子同为1.000,2本同为0.757,3本同为0.743。将这些期刊排在22到24名之间,好像它们是不同的。现在,由于没有人能准确说这些小数有任何真正的意义,让我们看一下把影响因子精确到个位数的排名情况。于是,我们看到:脱颖而出的只有两本期刊——《经济文献杂志》(Journal ofEconomic Literature)和《经济学季刊》(Quarterly Journal ofEconomics),影响因子分别为9和6;两本期刊影响因子同为4;12本期刊影响因子同为3;1/3的期刊影响因子同为2;118本期刊的影响因子同为1。总之,这些相同影响因子的群体并不能真正被区分,多增加一个小数位数只是一种创建不同排名的方法。经济学家可能会告诉我们,小数点后保留一位就可以了。但仍有4本期刊的影响因子为2.7(排在11~14),18本与《世界银行经济评论》(World BankEconomic Review)在同一组,影响因子为1.1(排在70~83)。可见,虚假的精确性掩盖了其根本上的不准确性。
基本上,滥用排名和表面看似精确的指标说明对所用指标的属性一无所知。我不必在这里赘述使用这些有缺陷指标带来的负面效应。没有人相信这种系统是合理的,所以就不必讨论这种系统是否公平公正了。只有那些从不合适的奖励制度中获益的机会主义研究者以及利用影响因子来达到某种评价目的的期刊编辑们可能会相信(无论如何都假装相信)。
2014年“自然指数”(Nature Index)的出现为研发排名抢占出版市场提供了一个有趣的案例,该指数根据他们定义的“高质量科学期刊”的论文数来对国家和机构排名。与评价市场上其他排名不同,它隶属于麦克米兰(Macmillan)的自然出版集团(NaturePublishing Group),现在与最大的科学期刊出版商之一的施普林格(Springer)合并。“自然指数”以68本期刊为基础,包括自然出版集团旗下的17本期刊(25%),据说这个排名提供了一个“基于已发表的、高质量论文的视角”,“为机构提供了一个简单的方法来识别和突出他们最好的科学研究”。
很明显从表面上看,这样的排名意味着机构应该给科研人员施加压力,让他们向这些期刊投稿,而不是把论文投到其他期刊。这个新排名的依据不是引文,也不是影响因子,而是论文数量。实质上,它以同样的方式定义了高质量的科学研究,即在其认定的68本期刊上发表论文。即使像数学这样的重要学科并没有在“抽样”的68本期刊中,但是自然指数发布几年后,可能会有些机构将简单地把排名结果解读为表征高质量科学研究的一个“黑匣子”,并调整其行为以提升在排名中的名次。这一做法从根本上对指数研发团队及相关期刊是有利的。然而,与影响因子的情况一样,自然指数的根本缺陷在于,它是以特定期刊作为衡量论文质量的标准,而不是看论文本身及它是否得到真正引用。根据洛特卡分布规律,在上文提及的68本期刊中发表论文并不能证明科学共同体认为其是有用或有趣的。
延伸阅读
新增2所!上交大和这所211取消博士发表论文的强制要求
新冠病毒的影响,突出了期刊影响因子的“有效性”
全球高层次人才服务平台—学术桥
欢迎联系我们:
高校招聘,吴老师:19927471252
人才求职,赵老师:13810238612